Data Filtering হল ডেটা প্রক্রিয়াকরণের একটি গুরুত্বপূর্ণ প্রক্রিয়া, যার মাধ্যমে বড় ডেটাসেট থেকে নির্দিষ্ট প্যাটার্ন বা শর্ত অনুযায়ী ডেটা বের করা হয়। AWK, Python, এবং Shell স্ক্রিপ্টের মতো টুল এবং প্রোগ্রামিং ভাষাগুলিতে ডেটা ফিল্টারিং প্রক্রিয়াটি সহজে করা যায়। এখানে AWK-এর মাধ্যমে Data Filtering-এর কিছু গুরুত্বপূর্ণ টেকনিক এবং তার প্রয়োগ নিয়ে আলোচনা করা হলো।
AWK-তে ডেটা ফিল্টারিং সাধারণত শর্ত (condition
) ব্যবহার করে করা হয়। AWK প্রতিটি লাইনের ডেটা পড়ে এবং যদি শর্ত সত্য হয়, তাহলে নির্দিষ্ট কার্যক্রম (action
) কার্যকর হয়।
awk '$3 > 50 { print $0 }' data.txt
এই কমান্ডটি data.txt
ফাইলের তৃতীয় ফিল্ডের মান 50 এর বেশি হলে পুরো লাইন প্রিন্ট করবে।
AWK-তে নির্দিষ্ট শব্দ বা প্যাটার্নের সাথে মিলে যাওয়া লাইন ফিল্টার করার জন্য নিয়মিত এক্সপ্রেশন ব্যবহার করা যায়।
awk '/error/ { print $0 }' logfile.txt
এই কমান্ডটি logfile.txt
ফাইল থেকে error
শব্দটি থাকা সব লাইন প্রিন্ট করবে।
AWK ব্যবহার করে নির্দিষ্ট ফিল্ডের মানের ভিত্তিতে ডেটা ফিল্টার করা যায়। $
চিহ্ন ব্যবহার করে ফিল্ড নির্বাচন করা হয়।
awk '$1 == "Alice" { print $2, $3 }' data.txt
এই কমান্ডটি data.txt
ফাইল থেকে প্রথম ফিল্ডে "Alice" থাকা লাইনগুলির দ্বিতীয় এবং তৃতীয় ফিল্ড প্রিন্ট করবে।
AWK-তে লজিক্যাল অপারেটর (&&
, ||
, !
) ব্যবহার করে একাধিক শর্ত একসাথে মিলিয়ে ডেটা ফিল্টার করা যায়।
awk '$2 > 20 && $3 < 100 { print $1, $2, $3 }' data.txt
এই কমান্ডটি data.txt
ফাইল থেকে সেই লাইনগুলো প্রিন্ট করবে যেগুলির দ্বিতীয় ফিল্ডের মান 20 এর বেশি এবং তৃতীয় ফিল্ডের মান 100 এর কম।
AWK-তে BEGIN
এবং END
ব্লক ব্যবহার করে ডেটা প্রক্রিয়াকরণের আগে এবং পরে কার্যক্রম পরিচালনা করা যায়।
awk 'BEGIN { print "Processing Data..." }
$2 > 50 { count++ }
END { print "Total number of records with second field > 50:", count }' data.txt
এই স্ক্রিপ্টটি data.txt
ফাইলের দ্বিতীয় ফিল্ডের মান 50 এর বেশি হলে সেগুলোর সংখ্যা গণনা করবে এবং শেষে আউটপুট প্রিন্ট করবে।
AWK-এর ~
অপারেটর ব্যবহার করে ফিল্ডের মধ্যে নিয়মিত এক্সপ্রেশন মিল খুঁজে বের করা যায়।
awk '$1 ~ /^[A-Z]/ { print $0 }' data.txt
এই কমান্ডটি data.txt
ফাইল থেকে প্রথম ফিল্ডে বড় হাতের অক্ষর দিয়ে শুরু হওয়া লাইনগুলো প্রিন্ট করবে।
ফিল্টার করা ডেটা সংরক্ষণ করা:
awk '$3 > 100 { print $0 }' data.txt > filtered_data.txt
এই কমান্ডটি ফিল্টার করা ডেটা filtered_data.txt
ফাইলে সংরক্ষণ করবে।
গণনা এবং গড় বের করা:
awk '{ sum += $2; count++ } END { print "Average:", sum / count }' data.txt
এই স্ক্রিপ্টটি data.txt
ফাইলের দ্বিতীয় ফিল্ডের গড় নির্ণয় করবে।
Data Filtering একটি গুরুত্বপূর্ণ প্রক্রিয়া, যা বড় আকারের ডেটাসেট থেকে নির্দিষ্ট ডেটা বের করতে সহায়ক। AWK-এর মাধ্যমে শর্ত, নিয়মিত এক্সপ্রেশন এবং লজিক্যাল অপারেটর ব্যবহার করে সহজেই ডেটা ফিল্টার করা যায়। Data Filtering টেকনিক ব্যবহার করে ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ আরও কার্যকর এবং সঠিক করা সম্ভব।
common.read_more